Preprocessing

Заполнение пропущенных значений

По каждому показателю внутри каждой страны:

  • Если число пропущенных значений выше 4, то заполнение линейной интерполяцией
  • Если число пропущенных значений от 1 до 4, то заполнение с помощью кубических сплайнов, по методологии Forsythe, G. E., Malcolm, M. A. and Moler, C. B. (1977) Computer Methods for Mathematical Computations. Wiley

Подробнее можно посмотреть здесь.

Нормализация

Классический способ: вычитание среднего и деление на стандартное отклонение.

Примечание: у нескольких стран некоторые ряды в течение всего периода наблюдения являются константой. В таких случаях нормализованный ряд был установлен как нуль. С целью обеспечения возможности расчетов ГК. Соответственно, перед этими показателями для этих стран, коэффициенты факторной нагрузки будут нулевыми.

Список случаев: показатель GFDD.OI.15, страны Iceland, Israel, New Zealand, Sweden.

МГК

Графические результаты реализации метода МГК.

Доля объясненной дисперсии

В целом, по всем областям первые главные компоненты, в среднем объясняют выше 50% дисперсии. Однако встречаются страны, где этот показатель ниже 50%. В целом, не ниже 40% (за исключением нескольких выбросов :).

Корреляции

Уже явно прослеживаются кластеры стран!
Однако осталось определить, насколько это обусловлено случайным выбором направления векторов МГК алгоритмом.

Факторные нагрузки

Траектории ГК